3 research outputs found
FrameNet annotation for multimodal corpora: devising a methodology for the semantic representation of text-image interactions in audiovisual productions
Multimodal analyses have been growing in importance within several approaches to
Cognitive Linguistics and applied fields such as Natural Language Understanding. Nonetheless
fine-grained semantic representations of multimodal objects are still lacking, especially in terms
of integrating areas such as Natural Language Processing and Computer Vision, which are key
for the implementation of multimodality in Computational Linguistics. In this dissertation, we
propose a methodology for extending FrameNet annotation to the multimodal domain, since
FrameNet can provide fine-grained semantic representations, particularly with a database
enriched by Qualia and other interframal and intraframal relations, as it is the case of FrameNet
Brasil. To make FrameNet Brasil able to conduct multimodal analysis, we outlined the
hypothesis that similarly to the way in which words in a sentence evoke frames and organize
their elements in the syntactic locality accompanying them, visual elements in video shots may,
also, evoke frames and organize their elements on the screen or work complementarily with the
frame evocation patterns of the sentences narrated simultaneously to their appearance on screen,
providing different profiling and perspective options for meaning construction. The corpus
annotated for testing the hypothesis is composed of episodes of a Brazilian TV Travel Series
critically acclaimed as an exemplar of good practices in audiovisual composition. The TV genre
chosen also configures a novel experimental setting for research on integrated image and text
comprehension, since, in this corpus, text is not a direct description of the image sequence but
correlates with it indirectly in a myriad of ways. The dissertation also reports on an eye-tracker
experiment conducted to validate the approach proposed to a text-oriented annotation. The
experiment demonstrated that it is not possible to determine that text impacts gaze directly and
was taken as a reinforcement to the approach of valorizing modes combination. Last, we present
the Frame2 dataset, the product of the annotation task carried out for the corpus following both
the methodology and guidelines proposed. The results achieved demonstrate that, at least for
this TV genre but possibly also for others, a fine-grained semantic annotation tackling the
diverse correlations that take place in a multimodal setting provides new perspective in
multimodal comprehension modeling. Moreover, multimodal annotation also enriches the
development of FrameNets, to the extent that correlations found between modalities can attest
the modeling choices made by those building frame-based resources.Análises multimodais vêm crescendo em importância em várias abordagens da
Linguística Cognitiva e em diversas áreas de aplicação, como o da Compreensão de Linguagem
Natural. No entanto, há significativa carência de representações semânticas refinadas de objetos
multimodais, especialmente em termos de integração de áreas como Processamento de
Linguagem Natural e Visão Computacional, que são fundamentais para a implementação de
multimodalidade no campo da Linguística Computacional. Nesta tese, propomos uma
metodologia para estender o método de anotação da FrameNet ao domínio multimodal, uma
vez que a FrameNet pode fornecer representações semânticas refinadas, particularmente com
um banco de dados enriquecido por Qualia e outras relações interframe e intraframe, como é o
caso do FrameNet Brasil. Para tornar a FrameNet Brasil capaz de realizar análises multimodais,
delineamos a hipótese de que, assim como as palavras em uma frase evocam frames e
organizam seus elementos na localidade sintática que os acompanha, os elementos visuais nos
planos de vídeo também podem evocar frames e organizar seus elementos na tela ou trabalhar
de forma complementar aos padrões de evocação de frames das sentenças narradas
simultaneamente ao seu aparecimento na tela, proporcionando diferentes perfis e opções de
perspectiva para a construção de sentido. O corpus anotado para testar a hipótese é composto
por episódios de um programa televisivo de viagens brasileiro aclamado pela crítica como um
exemplo de boas práticas em composição audiovisual. O gênero televisivo escolhido também
configura um novo conjunto experimental para a pesquisa em imagem integrada e compreensão
textual, uma vez que, neste corpus, o texto não é uma descrição direta da sequência de imagens,
mas se correlaciona com ela indiretamente em uma miríade de formas diversa. A Tese também
relata um experimento de rastreamento ocular realizado para validar a abordagem proposta para
uma anotação orientada por texto. O experimento demonstrou que não é possível determinar
que o texto impacta diretamente o direcionamento do olhar e foi tomado como um reforço para
a abordagem de valorização da combinação de modos. Por fim, apresentamos o conjunto de
dados Frame2, produto da tarefa de anotação realizada para o corpus seguindo a metodologia e
as diretrizes propostas. Os resultados obtidos demonstram que, pelo menos para esse gênero de
TV, mas possivelmente também para outros, uma anotação semântica refinada que aborde as
diversas correlações que ocorrem em um ambiente multimodal oferece uma nova perspectiva
na modelagem da compreensão multimodal. Além disso, a anotação multimodal também
enriquece o desenvolvimento de FrameNets, na medida em que as correlações encontradas entre
as modalidades podem atestar as escolhas de modelagem feitas por aqueles que criam recursos
baseados em frames.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superio
A TV Industrial de Juiz de Fora: memórias da juizdeforaneidade (1964-1979)
In the recent past, TV Industrial figured among the pioneer local broadcasting television stations located outside of a Brazilian state capital. It operated between the years of 1964 and 1979, a period of time in which it came into view as the only TV channel in Juiz de Fora to be rightly called a local broadcasting station. This study is aimed at both reconstructing the history of TV Industrial and investigating the role it played in shaping Juiz de Fora’s cultural identities. Through its competent cultural mediation, TV Industrial has to a large extent helped to construct identities for “juizforanos”. On the whole, such identities gave shape to what is herein called “juizdeforaneidade”. In its programs, TV Industrial staged local setting, issue and even linguistic turns. In this respect, it is acknowledged that one of the self-evident characteristics of television images lies in their verisimilitude to normative consensual notions of ‘real life’. As for the methodological approach, we believe that oral testimonies are to be used as an apt way to make known the memories of former broadcasters responsible for TV Industrial original conception and routine. Beyond its function as the history-documentation medium, TV Industrial has proven that there is no better way to understand society than through the reliable records of the self-society’s actions, symbols, and oral texts. We then point out that all sorts of narratives produced for local audiences are always going to operate in some relation to established discourses of local cultural identities. Finally, the present thesis is committed to highlighting TV Industrial relevance and uniqueness in its representations of “juizdeforaneidade”.A TV Industrial figurou entre as pioneiras geradoras de programação instaladas fora de uma capital brasileira. Operou em Juiz de Fora entre 1964 e 1979, período no qual foi o único canal caracterizado como emissora local. Esta Dissertação resgata a história da TV Industrial (e seus antecedentes) e analisa o papel mediador desempenhado pela emissora no processo de representação da identidade juizforana na televisão. Veículo local, a TV Industrial se valeu de traços da juizdeforaneidade na construção de sua identidade, e, pelo conteúdo veiculado, representava o imaginário da cidade em sua programação. A metodologia de pesquisa envolve a história oral, revelando as memórias de ex-comunicadores que participaram da concepção e do dia a dia da TV Industrial. Os relatos colhidos oferecem dados históricos, pondo em destaque critérios adotados para nortear os conteúdos veiculados, os processos de produção desses conteúdos e a impressão dos ex-comunicadores sobre o que representou a TV para a cidade. Uma pesquisa documental serviu para rastrear registros sobre a emissora publicados na imprensa local da época. Ao final, destacam-se a relevância e a singularidade do lugar ocupado pela TV Industrial na representação da juizdeforaneidade, levando-se em conta a importância da mídia televisiva para a mediação de identidades
The Case for Perspective in Multimodal Datasets
This paper argues in favor of the adoption of annotation practices for
multimodal datasets that recognize and represent the inherently perspectivized
nature of multimodal communication. To support our claim, we present a set of
annotation experiments in which FrameNet annotation is applied to the Multi30k
and the Flickr 30k Entities datasets. We assess the cosine similarity between
the semantic representations derived from the annotation of both pictures and
captions for frames. Our findings indicate that: (i) frame semantic similarity
between captions of the same picture produced in different languages is
sensitive to whether the caption is a translation of another caption or not,
and (ii) picture annotation for semantic frames is sensitive to whether the
image is annotated in presence of a caption or not.Comment: Accepted submission for the 1st Workshop on Perspectivist Approaches
to NLP (NLPerspectives